哈工大中文篇章关系语料 (HIT-CDTB) 包括525篇标注文本,语料生文本来源于OntoNotes 4.0中的以下四类文本:

     1. bn (broad news)

     2. mz (magazine)

     3. nw (new wire)

     4. wb (web)


针对每一篇文本,我们标注了以下三部分内容:分句篇章关系、复句篇章关系和句群篇章关系。

    p3:  分句篇章关系是指篇章关系涉及到的两个关系元素位于同一个句子内;

    p2:  复句篇章关系表示两个关系元素是两个独立的句子

    p1:  句群篇章关系是指篇章关系涉及的两个关系元素都是句子集合。


显式篇章关系:
     指由显式关联词标识的篇章关系。标注过程中,通常从识别篇章关联词入手,根据关联词判断是否存在篇章关系,但并不是所有的关联词都标识了篇章关系,因此需要标注人员进行识别。 在标注过程中需要首先识别显式关联词,再根据关联词寻找关系元素。


隐式篇章关系:
     隐式关系是指没有显式关联词的篇章关系。在很多情况下,汉语篇章关系并没有关联词,识别难度比显式关系更大。在标注过程中,首先需要标注人员识别隐式关系,并选择合适的连词插入关系,以此标识该篇章关系。

针对原始语料:


    " 前几天大家想出去玩,但是天气一直不好,就没有出去。天气预报说今天天气会很好,大家决定去旁边的白云山上玩。"

该语料中共存在两个篇章关系,第一句话中是一个典型显式转折关系。第二句话是一个典型的隐式因果关系。


2.1: 显式篇章关系标注示例


2.2 隐式篇章关系标注示例

语料的标注的结果的存放格式分为两种,txt版和xml版。txt版本的存储格式见上面的标注示例.

4.1 : 显式篇章关系xml版本存储格式如下:



4.2: 隐式篇章关系xml版本存储格式如下: